續上一篇LLM 和機器學習的介紹-Part 2,我們繼續討論一些數據建模、LLM和機器學習的示例。
3. 回歸分析 (Regression analysis)
回歸分析是一種統計方法,顯示了兩個或更多變數之間的關係。通常以圖形形式表示,該方法測試了一個依賴變數與獨立變數之間的關係。
它回答了以下問題:哪些因素最重要?哪些可以忽略?這些因素如何相互作用?而且,也許最重要的是,對所有這些因素我們有多確定?
在回歸分析中,這些因素稱為“變數”。你有你的依賴變數——你試圖理解或預測的主要因素。然後你有你的獨立變數——你懷疑對依賴變數有影響的因素。
大多數公司使用回歸分析來解釋他們想要理解的現象(例如,為什麼上個月客戶服務電話減少了?);預測未來的事物(例如,未來六個月的銷售將是什麼樣子?);或者決定該做什麼(例如,我們應該選擇這個促銷還是其他的?)。
關於“相關不等於因果關係”的一個重要注釋:無論何時你在回歸分析或任何其他嘗試解釋一個因素對另一個因素的影響的分析中工作,你都需要記住:相關不等於因果關係。這是很重要的重點。比如:雨量和月銷售之間存在相關性但不代表雨量影響銷售量。
參考資料:https://hbr.org/2015/11/a-refresher-on-regression-analysis
4. A/B測試 (A/B Testing)
A/B測試比較相同事物的兩個版本的性能,如網站、應用程序或設計,以確定哪個版本的性能更好。這也稱為分割測試。這有助於公司確定哪個版本可以帶來更大的銷售或客戶吸引力。
測試遵循以下結構:
在創建假設之前,你應該列出優先測試的項目,並且你可以隔離因果關係。值得注意的是,兩個版本(A/B)應在相同的環境中進行測試,與相同的外部因素同步,以進行公平和有效的測試。
參考資料:https://www.knowledgehut.com/blog/data-science/ab-testing-data-science
對 dbt 或 data 有興趣?歡迎加入 dbt community 到 #local-taipei 找我們,也有實體 Meetup 請到 dbt Taipei Meetup 報名參加
Ref:
https://levelup.gitconnected.com/20-pandas-functions-for-80-of-your-data-science-tasks-b610c8bfe63c